文章目录
  1. 1. Logistic Regression公式
  2. 2. 使用GNB推导
  3. 3. 总结
  4. 4. 参考

Logistic Regression公式

Logistic Regression(下面简称LR)是一个二分类的机器学习方法,给定一个输入向量$x_i$,输出$P(y_i|x_i)$,其中$y_i \in {0,1}$。

作为一个二分类问题,$Y$的后验概率一般会写成这样:
$$P(Y=1|X)=\frac{1}{1+exp(- \omega - \sum_{i=1}^n {\omega_ix_i})}=\sigma(W^TX_i)$$
那么

$$P(Y=0|X)=1-\sigma(W^TX_i)$$

其中$\sigma(\cdot)$表示激活函数,为$S$形状,x轴可以取值无限大,y轴只能取到$(-1,1)$
$$\sigma(a)=\frac{1}{1+exp(-a)}$$

由于LR表示简单,训练预测速度快,效果并不是很差(加上正则化),所以深得学术和工业界的囍爱~^_^

使用GNB推导

谈到LR的时候第一印象就是上面的公式,但是为啥是这个公式呢?这一小节就是从GNB(Gaussion Navie Bayes)的角度来看待这个问题~

我们先对GNB模型做4个假设:

  1. $Y$是布尔值,服从伯努利分布,其中$\pi = P(Y=1)$
  2. 其中$X_i$是连续随机变量
  3. 对于每个$X_i$,$P(X_i|Y=y_k)$服从高斯分布$N(\mu_{ik},\sigma_i)$(大多数情况下,简单用的$N(\mu_k,\sigma)$)
  4. 在给定$Y$下,$X_i$与$X_j$条件独立

现在让$P(Y|X)$服从GNB假设,通常根据贝叶斯公式可以得到以下:
$$P(Y=1|X)=\frac{P(X|Y=1)P(Y=1)}{P(Y=1)P(X|Y=1)+P(Y=0)P(X|Y=0)}$$

再对这个式子进行进一步处理:

$$
\begin{equation}\begin{split} P(Y=1|X)&=\frac{1}{1+\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)}}\quad\quad &(1)\\
&=\frac{1}{1+exp \left(ln\frac{P(Y=0)P(X|Y=0)}{P(Y=1)P(X|Y=1)}\right)}&(2)\\
&=\frac{1}{1+exp \left(ln\frac{P(Y=0)}{P(Y=1)}+\sum_iln\frac{P(x_i|Y=0)}{P(x_i|Y=1)}\right)}\quad\quad&(3)\\
&=\frac{1}{1+exp \left(ln\frac{1-\pi}{\pi}+\sum_iln\frac{P(x_i|Y=0)}{P(x_i|Y=1)}\right)} &(4)
\end{split}\end{equation}
$$

其中:

  1. 式子(1)->(2)是加了exp函数与ln函数正好相互抵消
  2. 式子(2)->(3)首先将ln函数的相乘转为相加,同时由于$X$中的各个$x_i$相互独立,所以原本写成连乘的式子又可以写成相加求和
  3. 式子(3)->(4)中$P(Y=1)$的概率是$\pi$,则$P(Y=0)$的概率是$1-\pi$

在给定假设3情况下,对$\sum_iln\frac{P(x_i|Y=0)}{P(x_i|Y=1)}$进行进一步展开:
$$\begin{equation}\begin{split} \sum_iln\frac{P(x_i|Y=0)}{P(x_i|Y=1)} &=\sum_iln\frac{\frac{1}{\sqrt{2\pi\sigma}}exp(\frac{-(x_i-\mu_{i0})^2}{2\sigma_i^2})}{\frac{1}{\sqrt{2\pi\sigma}}exp(\frac{-(x_i-\mu_{i1})^2}{2\sigma_i^2})} &(5)\\
&= \sum_iln exp\left(\frac{(x_i-\mu_{i1})^2-(x_i-\mu_{i0})^2}{2\sigma_i^2}\right) &(6)\\
&= \sum_i \left(\frac{(x_i^2-2x_i\mu_{i1}+\mu_{i1}^2)-(x_i^2-2x_i\mu_{i0}+\mu_{i0}^2)}{2\sigma_i^2}\right) \quad\quad &(7)\\
&= \sum_i \left(\frac{2x_i(\mu_{i0}-\mu_{i1})+\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}\right) &(8)\\
&= \sum_i \left(\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2}x_i+\frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}\right) &(9)
\end{split}\end{equation}$$

  1. 式子(5)根据假设3而得到,它是服从高斯分布
  2. 式子(5)->(6)是消除了公共因此,并且将指数上的相除转为了相减
  3. 式子(6)->(7)是对lnexp进行了相互抵消,并且对其平方公式进行了展开
  4. 式子(7)->(8)是展开式中除去了公有的变量
  5. 式子(8)->(9)将$x_i$显眼得提了出来

现从新将上面的展开式丢到$P(Y=1|X)$中则可以得到
$$P(Y=1|X)=\frac{1}{1+exp \left(ln\frac{1-\pi}{\pi}+\sum_i(\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2}x_i+\frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2})\right)}$$

相应地,则可以将其写为:
$$P(Y=1|X)=\frac{1}{1+exp (\omega_0+\sum_i\omega_ix_i)}$$

可以发现这个式子就是LR的式子了

其权重$\{\omega_1…\omega_n\}$为
$$\omega_i=\frac{\mu_{i0}-\mu_{i1}}{\sigma_i^2}$$
其偏置$\omega_0$为:
$$\omega_0=ln\frac{1-\pi}{\pi}+\sum_i\frac{\mu_{i1}^2-\mu_{i0}^2}{2\sigma_i^2}$$

总结

文本是学习了从贝叶斯角度来看LR式子的来源,根据大家熟知的朴素贝叶斯公式,将定其特定类别下的特征符合高斯分布,根据贝叶斯公式一步步推导出了LR式子的样纸,还是很神奇的。^_^

参考

1 http://web.cse.ohio-state.edu/~kulis/teaching/788_sp12/scribe_notes/lecture6.pdf(基本就是看了这个,不过里面公式有不少笔误的。。)


本作品采用[知识共享署名-非商业性使用-相同方式共享 2.5]中国大陆许可协议进行许可,我的博客欢迎复制共享,但在同时,希望保留我的署名权kubiCode,并且,不得用于商业用途。如您有任何疑问或者授权方面的协商,请给我留言

文章目录
  1. 1. Logistic Regression公式
  2. 2. 使用GNB推导
  3. 3. 总结
  4. 4. 参考